Level 2: Xử lý dữ liệu & Trực quan hóa
15 Buổi ~ 30H
Link Syllabus: Xem chi tiết tại đây
1. Tổng quan về Data Science
- Giới thiệu Data Science
- Phân tích và thao tác dữ liệu
- Trực quan hóa dữ liệu
2. Python Re-checking
Phần 1:
- Tổng quan
- Cấu trúc dữ liệu
- Luồng điều khiển
Phần 2:
- Tập tin
- Xử lý ngoại lệ
Python Notes:
- Khác biệt trong Python
- Chú thích kiểu dữ liệu
- Kiểm tra kiểu dữ liệu tự động
- Coding style
3. Data Collection
Phần 1:
- Giới thiệu
- Requests
Phần 2:
- BeautifulSoup
- Selenium
4. NumPy
Phần 1:
- Giới thiệu
- Mảng (Array)
- Broadcasting
Phần 2:
- Ma trận
- Thống kê trên mảng NumPy
5.6 Pandas
Phần 1:
- Giới thiệu đối tượng Pandas
- Lập chỉ mục dữ liệu
- Hoạt động trên dữ liệu
- Xử lý dữ liệu bị thiếu (Handling missing data)
Phần 2:
- Lập chỉ mục phân cấp
- Kết hợp tập dữ liệu: Concat và Append
- Kết hợp tập dữ liệu: Merge và Join
- Tổng hợp và phân nhóm
Phần 3:
- Bảng tổng hợp (Pivot Tables)
- Hoạt động chuỗi được vector hóa
- Làm việc với chuỗi thời gian (Time Series)
- Hiệu suất cao với Pandas:
eval()
vàquery()
7. Matplotlib
Phần 1:
- Giới thiệu Matplotlib
- Các biểu đồ cơ bản
Phần 2:
- Các biểu đồ cơ bản (tt)
- Tùy chỉnh biểu đồ
8. Máy học (Machine Learning)
Phần 1:
- Tổng quan
- Học có giám sát
- Học không giám sát
Phần 2:
- Thực hành Học có giám sát
9. Hồi quy (Regression)
- Khái niệm hồi quy
- Hồi quy tuyến tính
- Cài đặt với Python
10. Phân lớp (Classification)
Phần 1:
- Giới thiệu phân lớp
- Đặc trưng (Feature)
Phần 2:
- Tính toán xác suất
- Nâng cao
11. Học không giám sát - Gom cụm
Phần 1:
- Giới thiệu
- Độ đo khoảng cách
Phần 2:
- Hàm tiêu chí để đánh giá cụm
- Thuật toán tính cụm (tối ưu hóa hàm tiêu chí)
12. Phân khúc khách hàng
- Giới thiệu phân khúc khách hàng
- Thuận lợi của phân khúc khách hàng
- Giải thuật phân nhóm K-means
13. Ứng dụng thực tế
- Phân tích dữ liệu thực tế từ nguồn mở
- Xử lý dữ liệu từ API, web scraping-
- Xây dựng báo cáo và dashboard với Pandas, Matplotlib
- Giới thiệu về Dash và Streamlit để tạo giao diện trực quan
14. Ứng dụng thực tế với Python
- Xử lý dữ liệu thực tế (CSV, Excel, API)
- Thực hành trực quan hóa dữ liệu
- Ứng dụng Python trong công việc hàng ngày"
15. Ôn tập
- Tổng kết kiến thức đã học